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摘要 : [目的 /意义 ] 旨 在 探索 从 非 结构 化 用 户 生成 内 容 中 提取 及 可 视 化 用 户 情绪 的 方法 ， 从 感知 层面 
深入 分 析 用 户 生 成 的 内 容 , 对 其 应 用 前 景 进行 探讨 与 展望 .[ 方 法 /过 程 ] 以 豆 关 网 站 书籍 评论 为 分 析 对 象 ， 
借助 中 文 领域 的 情绪 词典 与 LDA 隐 主 题 建 模 方法 实现 细 粒 度 情感 要 素 提炼 ， 并 采用 可 视 化 技术 对 评论 内 容 
中 反映 的 情绪 要 素 进行 分 析 。[ 结果 /结论 ] 研究 发 现 ， 主 题 分 析 法 和 词典 法 均 能 有 效 提炼 评论 内 容 中 的 
用 户 情感 要 素 ,但 存 有 差异 , 情感 主题 建 模 能 够 提供 更 细腻 的 用 户 情绪 以 及 感知 信息 .通过 应 用 场景 的 微调 ， 
本 研究 所 涉及 方法 可 应 用 于 体验 型 产品 推荐 等 多 种 形式 的 评论 感知 效用 挖 气 任 务 。 
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@@ 前 言 


随 着 用 户 生 成 内 容 的 急剧 增长 ， 情 感 分 析 
的 理论 研究 和 实践 应 用 越 来 越 普遍 。 广 义 情 感 
分 析 ， 是 通过 识别 、 抽 取 和 分 类 等 方法 对 文本 
表达 观点 、 情 感 、 情 绪 以 及 态度 的 计算 研究 1， 
涵盖 主客 观 分 析 、 态 度 分 析 、 人 情绪 分 析 、 观 点 
挖掘 等 一 系列 研究 任务 ， 被 广泛 应 用 于 与 情 监 
控 趾 市场 预测 趾 、 客 户 满意 度 调 查 等 多 个 领域 。 

整体 来 看 ， 情 感 分 析 研 究 经 历 了 从 篇 章 到 


语句 、 从 词 频 到 主题 、 从 两 极 情感 到 多 维 情绪 
等 一 系列 转变 。 但 多 数 情感 分 析 研 究 主要 还 是 
衰 贬 倾 向 的 判断 ， 关 于 情感 程度 量化 以 及 情感 
状态 ( 如 快乐 、 愤 怒 、 焦 虑 、 莫 伤 等 ) 的 分 析 
仍 比 较 少 见 ， 尤 其 在 中 文 领域 。 英 文 领 域 在 这 
方面 有 更 多 积极 的 探索 ， 如 以 下 代表 性 研究 关 
注 了 细 粒 度 情 感 状 态 〈 或 称 情 绪 ) 对 用 户 评论 
感知 有 用 性 的 影响 : L. Martin 与 P Pu 上 证 明了 
情绪 特征 对 评论 质量 预测 起 积极 作用 ; A. Fel- 
bermayr 与 A. Nanopoulos" 的 研究 则 指出 细 粒 度 
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的 情绪 特征 ， 对 评论 感知 有 用 性 的 影响 力 显著 
高 于 其 他 结构 类 文本 特征 要 素 ; D. Yin 等 ”发 
现 “焦虑 ”会 显著 提升 评论 的 感知 有 用 性 ，“ 慎 
怒 ” 则 不 然 。 这 些 最 新 研究 均 指 出 : 蕴含 在 用 
户 生成 内 容 中 的 更 细 化 的 情感 状态 会 对 接收 者 
的 感知 与 行为 产生 显著 而 直接 的 影响 ， 细 粒度 
情感 对 用 户 评论 的 生成 、 传 播 及 有 效 利 用 的 作 
用 不 容 忽视 。 

笔者 围绕 这 一 研究 主题 ， 以 中 文 领域 用 户 
书评 为 分 析 对 象 ， 探 讨 从 书评 中 提炼 细 粒 度 情 
感 的 方法 ， 通 过 引入 LDA 模型 来 建立 书评 的 情 
感 主题 , 并 可 视 化 用 户 生成 内 容 中 的 情感 状态 。 
另外 ， 本 研究 也 以 文学 作品 评论 的 情绪 分 析 为 
例 ， 展 望 细 粒度 情感 分 析 的 应 用 前 景 。 


@ 相 关 研 究 


2.1 情感 分 析 与 情绪 词典 

早期 的 情感 分 析 以 篇 章 为 分 析 粒 度 ， 情 感 
只 考虑 正 负 两 种 状态 。 后 续 的 研究 深入 语句 ， 
除了 情感 极 性 ， 开 始 进 一 步 强调 情感 程度 ， 同 
时 关注 情感 对 象 ， 乃 至 上 下 文 情境 。 史 伟 等 总 
借助 自 建 的 模糊 情感 本 体 来 识别 手机 与 婚纱 摄 
影评 论 中 的 产品 特征 、 辩 别 情感 极 性 ， 并 通过 
引入 修饰 词 等 语义 元 素 ， 精 细 化 情感 强度 计算 ; 
翘 弄 局 针对 数码 商品 评论 ， 借 助 隐 主 题 模 型 凝 
聚 用 户 观点 ,同时 利用 句法 分 析 进 行情 感 量化 ， 
实现 了 商品 在 线 口碑 的 凝练 与 汇总 ; 金 燕 巴 探 
索 情 感 因素 对 微 博 中 的 用 户 生成 内 容 质量 的 影 
响 ， 在 积极 〈 正 向 ) 、 中 性 、 消 极 〈( 负 向 ) 情 
感 量 化 基础 上 再 将 正 负 情 感 各 自 细 分 为 高 、 中 、 
低 三 档 ， 引 入 研究 模型 ， 进 而 使 用 ROST 内 容 
挖掘 系统 进行 情绪 分 析 处 理 。 

随 着 情感 分 析 研 究 的 深入 ， 研 究 者 借鉴 心 
理学 领域 的 研究 ， 开 始 将 正 负 情 感 细 化 为 情绪 
特征 。 心 理学 领域 对 “情绪 (emotion)” 有 明确 
的 界定 ，R. Bagozzi 等 "认为 情绪 是 “人 们 对 
事件 进行 认 知 评论 所 产生 的 精神 状态 ”，“ 具 
体 、 来 源 明确 并 能 导致 特定 行为 倾向 ”。 依 据 
对 “情绪 ”的 认 知 , 心理 学 领域 的 学 者 提出 了 “ 情 
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绪 ” 模 型 。 其 中 ， 最 具 代 表 的 Plutchink 情感 模 
型 外 将 8 个 基本 情感 类 描绘 成 著名 的 “情绪 轮 
盘 (Wheel of Emotions)”。 情 感 模 型 在 心理 学 领 
域 有 着 广泛 的 应 用 。 

心理 学 理论 研究 促进 了 情绪 词典 的 发 展 。 
在 英文 领域 ,普遍 公认 的 是 NRC (National Re- 
search Council Canada) 词典 。 借 助 情绪 词典 ， 
细 粒 度 情绪 分 析 得 以 开展 。R. Ullah 等 "利用 
SentiWordNet 情绪 词典 对 亚马逊 上 17 种 产品 评 
论 中 的 用 户 情绪 分 布 进行 了 深入 分 析 。L. Martin 
与 P Pu 基于 GALC 情绪 词典 等 探究 情绪 变量 
对 多 种 评论 质量 的 预测 效果 ， 发 现 多 维 情绪 分 
析 效 果 较 二 维 情 感 极 性 分 析 效 果 更 好 。 在 中 文 
领域 , 大 连理 工大 学 信息 检索 实验 室 中 文 情感 
词汇 本 体 (http://ir.dlut.edu.cn/) 参考 Ekman 情感 
模型 趾 将 情感 分 为 乐 joy)、 惯 (fear)、 惊 (sur- 
prised)、 启 (sadness) 、 亚 (disgusted)、 怒 (anger) 
和 好 (goodness)7 个 大 类 21 个 小 类 ， 在 情感 分 
析 领 域 应 用 广泛 。 曹 宇 等 " 则 从 表情 符号 入手， 
通过 识别 语句 中 的 情感 词 ， 同 时 结合 《同义词 
词 林 》, 实现 了 对 现 有 多 元 情感 本 体 库 的 扩充 。 
2.2 评论 分 析 

产品 评论 是 评论 分 析 的 主要 对 象 。 产 品评 
论 根据 产品 类 型 区 分 为 搜索 型 ( 以 电子 产品 为 
代表 ) 与 体验 型 ( 以 电影 图 书 为 代表 ) 两 类 评 
论 号 ， 其 中 前 者 关注 产品 特点 ， 偏 向 使 用 客观 
指标 描述 ， 而 后 者 关注 用 户 参 与 感受 ， 偏 向 主 
观感 知 描述 , 含有 大 量 个 人 感受 及 体验 的 描述 ， 
情感 内 容 丰 富 。S. M. Mudambi 与 D. Schuffi” 
研究 了 评论 长 度 ， 用 户 星 级 评价 对 评论 感知 有 
用 性 的 影响 ， 发 现 使 用 体验 型 产品 评论 与 搜索 
型 产品 评论 所 分 析 得 出 的 结论 不 同 ; A. Ghose 
与 P. G. Ipeirotis" 研究 了 语法 错误 、 词 语 、 句 
子 长 度 等 可 读 性 要 素 对 影评 质量 的 影响 ; J. H. 
Lee 等 "9 关注 的 是 情感 的 作用 ， 发 现 删除 负面 
评论 对 提升 电影 票房 作用 不 大 ; M. Ko 等 基 
于 影评 内 容 中 的 细节 ， 筛 选 具有 正 向 情感 的 天 
键 特征 , 进行 影片 的 精细 化 推荐 。 在 这些 研究 中 ， 
情感 指标 常 以 用 户 评分 为 代表 或 通过 襄 贬 词汇 
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统计 来 获得 。 

在 国内 研究 中 ， 体 验 型 产品 评论 分 析 主 要 
以 评论 质量 影响 因素 分 析 、 信 息 抽 取 及 意见 挖 
掘 为 主题 。 乃 国 鹏 等 59 引入 了 评论 人 特征 ， 以 
从 众 视角 探索 包括 基于 评论 星 级 的 用 户 情 感 在 
内 的 多 种 电影 评论 要 素 对 评论 感知 有 用 性 的 影 
响 ;， 薛 博 召 "基于 文本 挖掘 工具 Ling Pipe， 将 
亚马逊 书评 数据 中 的 情感 特征 细 化 为 正身 情感 
差异 、 主 观 表 达 度 、 评 论 评分 与 产品 评分 差异 
等 若干 指标 ， 引 入 研究 模型 ; 张 丽 等 所 通过 对 
当当 网 书评 高 频 词 的 人 工 辨识 ， 从 情感 强度 、 
主客 观 表 述 、 评 价 、 图 书 内 容 等 维度 对 书评 内 
容 进 行 用 户 关 注 度 分析 ， 发 现 最 受 关注 的 是 图 
的 内 容 ; 祝 振 姐 上 分 析 亚 马 逊 上 不 同类 型 书籍 
的 评论 ， 基 于 分 类 、 句 法 分 析 与 SentiWordNet 
情绪 词典 从 评论 中 提炼 内 容 、 情 感 倾向 、 读 者 、 
评论 人 等 共 9 类 要 素 ， 经 过 量化 整合 ， 生 成 书 
评 摘要 。 可 以 看 到 ， 相 关 研 究 对 书评 或 影评 这 
类 体验 型 产品 评论 的 挖掘 进行 了 深入 探索 。 只 
是 这 类 研究 侧重 考量 的 评论 特征 宽泛 ， 内 容 之 
外 的 因素 较 多 ， 内 容 部 分 涉 入 则 不 深 。 更 没有 
专门 基于 内 容 ， 针 对 细 粒 度 主观 情绪 的 分 析 和 
研究。 


全 研究 核心 与 框架 
作为 针对 主观 性 文本 的 分 析 任 务 ， 本 研究 
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的 重点 是 基于 内 容 的 情感 要 素 的 分 析 。 则 在 探 
索 从 评论 内 容 中 提炼 “情绪 ”的 方法 ， 并 以 用 
户 感知 为 视角 对 书评 进行 情感 主题 分 析 。 这 一 
研究 是 对 中 文 领域 情感 分 析 人 研究 的 拓展 ， 通 过 
案例 分 析 ， 对 细 粒 度 情 感 分 析 的 应 用 前 景 进行 
展望 。 

人 研究 选择 豆瓣 网 (https:/www.douban.comy/) 
的 长 篇 幅 书评 为 分 析 数 据 ， 主 要 围绕 解决 3 个 
核心 问题 展开 : 中 如 何 有 效 提 炼 文本 内 容 中 的 
情绪 特征 ; 包 如 何 凝 练 情绪 特征 ， 构 建 基于 评 
论 内 容 的 情感 模型 ， 包 如 何 可 视 化 评论 内 容 中 
蕴含 的 用 户 情感 与 主题 。 

整个 研究 流程 分 数据 采集 、 预 处 理 、 情 感 
与 情绪 特征 提取 、 情 感 主 题 建 模 、 人 情感 主题 描 
述 及 可 视 化 6 个 模块 ， 如 图 1 所 示 。 采 集 模块 
选择 第 三 方 评论 网 站 为 数据 源 ， 并 于 采集 阶段 
对 采集 数据 进行 基于 票数 与 有 用 性 的 评论 质量 
过 滤 ， 以 减少 噪音 ,确保 后 期 建 模 效果 。 其 次 ， 
对 原始 语 料 进行 分 句 / 分词、 停 用 词 过 滤 、 词 性 
标注 等 预 处 理 。 情 感 与 情绪 特征 的 识别 分 别 通 
过 基于 词性 的 过 滤 以 及 基于 情感 与 情绪 词典 的 
比 对 实现 。 而 已 识别 的 情感 与 情绪 特征 将 进 一 
步 用 于 情绪 分 类 的 计算 以 及 情感 主题 的 构建 ， 
并 汇总 各 类 特征 结果 ， 以 可 视 化 形式 输出 ， 从 
而 实现 从 自然 语言 形式 的 评论 信息 到 结构 化 商 
品 特性 的 凝练 。 


| 最 优 模 型 构建 主题 模型 解释 | 


分 词 /分 句 


基于 词性 的 特征 识别 


册 


- 步骤 IV - 


情感 主题 构建 文本 可 视 化 


| 


词 频 可 视 化 


主题 可 视 化 


词典 的 特征 识别 
词性 标注 基于 词典 的 特征 识别 

-步骤 I - - 步骤 工 - - 步骤 亚 - 
数据 收集 与 过 滤 数据 预 处 理 情感 与 情绪 特征 识别 


- 步骤 VI - 


可 视 化 呈现 


基于 主题 模型 的 汇总 


网 | 基于 词典 的 汇总 


- 步骤 V - 
情感 与 情绪 汇总 


1 研究 流程 及 框架 
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OO 研 究 方法 
4.1 情感 理论 与 情绪 词典 

情绪 代表 着 人 的 主观 感受 与 想法 中。 由 于 
人 的 感情 的 复杂 性 ， 情 绪 分 类 一 直 是 相关 研究 
探讨 的 重点 。 著 名 的 Plutchik 情绪 轮 盘 中， 将 情 
绪 分 为 生气 (anger)、 厌 恶 (disgust)、 您 慢 (fear)、 
悲伤 (sadness)、 期 待 (anticipation)、 快 乐 joy)、 
惊讶 (surprise)、 信 任 (trust)8 个 基本 类 型 ， 两 两 
相对 (如 快乐 一 悲伤 ) ， 旦 情感 程度 不 同 。 复 
林 情 绪 派 生 于 基本 情绪 , 如 兼 具 “ 快 乐 " 和 “信任 ” 
的 情感 就 是 “ 爱 (love)”。 依 据 情感 理论 ， 人 情感 
与 情绪 词典 应 运 而 生 。 在 中 文 领域 ,， 大连 理工 
大 学 的 “中 文 情感 词汇 本 体 ” 与 NRC 词典 情感 
结构 近似 ， 标 注 完整 ， 是 目前 应 用 较 广 的 中 文 
情感 /情绪 词典 。 该 词汇 本 体 在 借鉴 Ekman 情 
感 模型 上 的 6 类 情绪 分 类 ( 即 乐 joy)、 惧 (fear)、 
惊 (surprised)、 训 (sadness)、 恶 (disgusted)、 经 
(anger) ) 的 基础 上 增添 了 “好 (goodness)”, “好 ” 
类 词汇 再 进一步 细 分 为 一 组 正 向 的 情感 状态 ， 
包括 尊敬 、 赞 扬 、 相 信 、 喜 爱 等 。 整 个 词典 涵 
盖 词 条 27 466 个 ， 分 7 个 大 类 、21 个 小 类 ， 且 
每 个 词 条 详细 标注 了 词性 、 情 感 类 型 、 情 感 强 
度 和 极 性 等 属性 。 笔 者 利用 中 文 词典 采用 匹配 
方式 从 评论 内 容 中 的 辨别 情感 词 ， 并 依据 其 在 
词典 中 的 情感 归属 进行 分 类 统计 ， 获 得 基于 评 
论 内 容 的 情绪 状态 分 布 。 


图 2 普 拉 切 克 的 情绪 轮 盘 (Wheel of Emotions)5 
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4.2 LDA 隐 主 题 模 型 

LDA (Latent Dirichlet Allocation) 是 一 个 多 
层 产生 式 概 率 模型 ， 包含 词 、 主 题 和 文档 3 个 
层次 。 在 LDA 模型 中 , D 为 文档 集 (ID|=N)， 
V 为 词 集 (|W=M), 9 表示 隐 和 主题 (Ip|=K)。 文 
档 dqeD 由 9; 随机 温 合 生成 ,表示 成 词 集 上 的 
序列 模式 dfwiw…w,…}， wieWV， 而 主题 
gi=1,2,…,K) 则 是 矿 上 的 多 项 式 分 布 ，LDA 的 
图 模型 如 图 3 所 示 : 


OOO 


N 


0 


Ga ， 


K 


图 3 LDA 的 图 模型 表示 外 


a 与 是 模型 的 重要 参数 。a 与 主题 的 先 验 
分 布 Dirichlet 有 关 ， 反 映 文 档 集 D 中 隐 主 题 的 
相对 强度 ; 8 刻画 主题 自身 的 概率 分 布 。 在 主 
题 屋 ，9,(i=1,2…,K) 为 “主题 一 词 ” 分 布 ， 由 
KxM 的 矩阵 8 参数 化 。 在 文档 展 ，0(d1.2,…， 
N) 为 “文档 一 主题 ”分 布 ， 表 征文 档 4 在 主题 
空间 上 的 分 布 , 由 a 确定 ; 在 词 层 , z,( 二 1,2,…,M) 
表示 文档 4 分 配 在 每 个 词 项 上 隐 主 题 分 量 ， 服 
从 参数 为 0, 的 多 项 式 分 布 。 构 造 LDA 模型 的 核 
心 是 推断 隐 变 量 ， 即 确定 0 和 p。 在 已 知 文档 集 
词 分 布 丈 的 前 提 下 ， 逆 向 推导 z( 二 1,2,…,M)， 
进而 推断 9,(t=1,2…,K) 和 0,(4d=1,2,…,N)。 模 型 
构建 涉及 多 个 未 知 量 , 一 般 采 用 近似 方法 求解 ， 
如 利用 Gibbs 抽样 估计 w 的 主题 分 布 外 

本 人 研究 借助 “中 文 情感 词汇 本 体 ”， 提 取 
情感 词 ， 构 造 基 于 情感 词 序 列 的 评论 描述 。 再 
利用 LDA 隐 主 题 模型 对 评论 集 进 行情 感 主题 分 
析 ， 挖 掘 评论 内 容 中 的 用 户 情绪 。 
4.3 情绪 可 视 化 

可 视 化 作为 一 种 能 够 直观 展现 数据 特征 的 
方法 ,为 人 们 整合 海量 数据 并 从 中 提炼 模式 与 
规律 提供 了 便利 。 信 息 可 视 化 模型 很 多 ， 较 经 
典 的 是 S.K. Card 提出 的 信息 可 视 化 参考 模型 上 
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( 见 图 4 )。 信 息 可 视 化 参考 模型 涉及 数据 收集 、 
数据 处 理 与 变换 、 可 视 化 映射 以 及 人 体 视 觉 感 
知 4 部分。 可 视 化 映射 是 转换 过 程 的 关键 。 可 
视 化 技术 根据 数据 对 象 特征 进行 开发 ， 基 础 的 
统计 可 视 化 方法 包括 条 形 图 、 饼 图 、 雷 达 图 等 ， 
而 关注 于 如 何 形 象 展现 文本 中 的 语义 特征 以 及 
这 些 语义 特征 随时 间 的 演变 规律 等 的 文本 可 视 
化 方法 则 有 静态 的 词 云 以 及 动态 的 主题 河 等 。 


数据 
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本 人 研究 涉及 的 可 视 化 技术 包括 基于 统计 
的 条 形 图 、 饼 图 以 及 基于 文本 的 词 云 与 主题 聚 
类 可 视 化 。 对 于 主题 聚 类 可 视 化 ， 笔 者 应 用 了 
LDAvis""。LDAvis 是 C. Sievert 与 K. E. Shirley 
基于 及 语言 开发 的 一 个 交互 式 LDA 隐 主 题 建 模 
结果 可 视 化 工具 ， 可 动态 展现 LDA 隐 主 题 聚 类 
的 直观 效果 ， 采 用 交互 方式 调整 参数 ， 观 察 主 
题 汇 聚 效果 及 主题 上 关键 词 项 的 分 布 。 


可 视 化 形式 


原始 数据 一 > 数据 表 ”一 > 可 视 化 结构 一 > ”视图 


数据 转换 可 视 化 映射 


全 实验 与 分 析 


本 研究 以 书评 为 对 象 ， 对 评论 中 的 用 户 情 
绪 进 行 识 别 、 抽 取 、 汇 聚 及 可 视 化 分 析 。 研 究 
涉及 3 个 主要 实验 : 基于 情感 词典 的 情绪 提炼 、 
基于 情感 主题 建 模 的 用 户 情 绪 控 掘 与 分 析 以 及 
相关 可 视 化 。 分 析 语 言 采用 R， 数 据 可 视 化 部 
分 主要 运用 Tagxedo (http:/www.tagxedo.com/) 
的 词 云 以 及 LDAvis 图 。 

5.1 数据 获取 与 基于 情感 词典 的 用 户 情 绪 识 别 

语 料 源 自 豆 办 读书 (https://book.douban. 
com/)。 豆 瓣 为 第 三 方 评 论 平 台 ， 可 信和 度 普遍 高 
于 电 商 平台 的 评论 。 依 据 主流 购书 网 站 的 图 书 
口碑 排名 ， 本 研究 选择 了 《白夜 行 》 等 12 本 文 
学 类 畅销 书 为 分 析 对 象 。 于 2016 年 10 月 至 11 
月 间 ， 用 怜 虫 抓 取 相 关 图 书页 面 “ 书 评 ” 区 评 
论 (区 别 于 “短评 ”区 评论 ) ， 实 际 抓 取 评论 
共 23 683 条 。 其 中 字数 大 于 300 的 长 篇 幅 评 论 
共 12 316 条 , 约 占 抓 取 评论 数量 52%。 为 了 确 
保 评 论 质量 ,实际 分 析 语 料 仅 保 留 有 用 性 投票 
量 大 于 5 的 评论 ， 共 1 555 条 评论 数据 ， 约 占 长 
篇 幅 评论 数据 的 13%。12 本 书 平均 有 效 数据 约 
为 126 条 。 


视图 转换 


人 机 交互 


图 4 S. K. Card 的 信息 可 视 化 参考 模型 


原始 书评 经 过 分 词 、 分 句 、 词 性 标注 等 预 
处 理 ,保留 名 词 、 形 容 词 以 及 动词 作为 候选 ， 
采用 词典 匹配 模式 ， 对 候选 词 项 进行 情感 词 辩 
别 ， 依 据 词 典 标 注 赋予 词 条 情感 类 标 及 情感 强 
度 。 相 关 实 验 涉及 情感 本 体 词汇 1 829 项 ， 约 占 
情感 本 体 词汇 总 量 7%。 

5.2 情感 主题 建 模 

在 识别 情感 词 的 基础 上 ， 本 研究 采用 了 隐 
主题 模型 LDA, 对 情感 内 容 描述 进行 主题 聚 类 ， 
以 更 好 地 凝聚 评论 内 容 中 蕴含 的 情感 特征 。 
5.2.1 建立 情感 主题 模型 

首先 进行 模型 的 优选 参数 实验 。 依 据 胡 吉 
明 与 陈 果 四 的 研究 ，LDA 的 超 参数 a 与 B 分 别 
取 {0.1, 0.5, 0.9} 与 {0.01, 0.1} 时 模型 效果 较 好 ， 
故 本 研究 组 合 两 组 取 值 ， 对 6 种 参数 设置 进行 
效果 对 比 ， 以 明确 最 优 参数 。 模 型 评价 采用 主 
题 间 相似 度 ， 见 公式 (1): 

Cor(ti,t;) = cor(c;,c;) 
_ Den Cn Wa) (en Wn) 
(es 鸭子 必定 (cn 
公式 (1) 
其 中 ，c、c 分 别 对 应 聚 类 主题 六 疙 的 特 
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征 向 量 ，w, 为 词语 n 在 主题 i 中 的 权重 。 模 型 
的 相似 度 为 聚 类 主题 相似 度 的 均值 ， 该 指标 越 
小 , 表明 主题 聚 类 差异 显著 , 聚 类 效果 好 。 以 《小 
王子 》 为 例 ( 见 图 5) ， 当 o=0.9 且 B=0.01 时 ， 
主题 模型 的 聚 类 效果 最 佳 。 图 中 , X 轴 对 应 主 


0.25 
0.15 
0.05 


主题 间 相似 度 


-0.05 
-0.15 
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题 数 ,，Y 轴 对 应 模型 中 主题 间 相 似 度 。 进 一 步 ， 
利用 LDAvis， 通 过 动态 参数 调整 ， 确 定 最 佳 主 
题 数 K。 如 图 6 所 示 ， 当 K=5 时 ，LDA 模型 中 
的 各 个 主题 之 间 相 离 较 远 ， 主 题 凝聚 的 效果 最 
佳 。 


10 11 12 13 14 15 16 


—®—alpha=(0.1, eta=0.01 —®— alpha=0.5, eta=0.01 —®@— alpha=0.9, eta=0.01 


—®@—alpha=(0.1, eta=0.1 —®—alpha=0.5, eta=0.1 —®—alpha=0.9, eta=0.1 


Intertopic Distance Map (via multidimensional scaling) 


PC2 
5 


Marginal topic So 
we 


5.2.2 基于 LDA 模型 的 书评 情感 主题 

实现 结果 展示 ， 主 题 聚 类 揭示 出 人 们 对 作 
品 的 感知 与 情绪 。 以 《小 王子 》 与 4《 白 夜行》 为 例 ， 
表 1 和 表 2 分 别 列 出 两 本 书 书评 的 情感 主题 分 
析 结 果 。 尽 管 长 评 中 词语 的 分 布 会 比较 分 散 ， 
前 几 项 占 比 偏 低 ， 但 在 一 定 程度 上 仍 可 反映 出 
评论 表达 的 情感 色彩 。 如 表 1 显示 , 《小 王子 》 
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图 6 主题 聚 类 可 视 化 LDAvis ( K=5 ) ( 运行 截图 


图 5 参数 设置 与 模型 相似 度 指数 分 布 


Top-30 Most Salient Terms) 
0 50 100 150 200 250 300 


oenl tem feqvenoy 
I Estimated term frequency within the selected topic 


— 


书评 中 的 用 户 情 绪 主 要 是 喜欢 、 友 谊 、 孤 独 、 
爱情 以 及 回忆 ， 整 体 是 正 向 情感 状态 。 而 内 容 
为 凄凉 爱情 和 冷静 推理 的 《白夜 行 》 书 评 中 的 
用 户 情感 则 是 绝望 、 理 解 与 肯定 、 失 去 与 不 幸 
以 及 献身 ， 整 体 表现 为 负面 的 情感 状态 ， 如 表 2 
所 示 。 可 见 ， 从 阅读 感受 上 看 ， 书 评 情感 主题 
聚 类 结果 与 书 的 内 容 是 十 分 吻合 的 。 
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表 1 《小 王子 》 情 感 主题 与 例句 


主题 主要 关键 词 前 20 项 占 比 例句 
“……: 或 许 不 同 的 人 会 有 不 同 的 理解 …… 长 大 后 才 
1 喜欢、 理解 、 纯 真 、 享 受 、 珍 惜 32.4% 读 完 这 本 书 ， 所 以 不 可 避免 地 喜欢 那 只 狐狸 …… 爱 
童话 的 人 是 拿 一 颗 赤 诚 的 心 去 读 童话 的 ……” 
ee 人 们 不 再 有 时 间 去 了 解 事情 了 ， 他 们 总 是 到 
2 重要、 有 朋友、 心灵、 仰望 、 美 好 32% 商店 里 买 现成 的 东西 ， 却 没有 一 家 店 贩卖 友谊 …… 
真正 重要 的 东西 是 肉眼 看 不 到 的 ……” 
, “.…… 小 王子 与 玫瑰 花 就 此 道别 ， 他 们 彼此 回 到 他 
3 ” 孤独、 奇怪 、 痛 蔡 、 折 宽 、 亲 爱 13.1% 们 所 习惯 的 ， 孤 独 的 常态 中 …… 
“…… 狐 狸 被 这 样 的 幸福 淹没 了 。 这 就 象 花 一 样 。 
4 ， 事 福 、 爱 情 、 美 丽 、 愿 意 、 耐 心 11.5% 如 果 你 爱 上 了 一 打 生 长 在 一 颗 星 星 上 的 花 ， 那 么 夜 
间 你 看 着 天 空 就 感到 甜蜜 愉快 ……” 
We J 《 j 六 站 薄 半 所 二 | lai 
5 希望、 喜欢、 快乐 、 微 笑 、 骄 全 下 有 回忆 的 味道 ， 就 像 柠 榜 草 的 香味 。 但 是 ， 是 


放下 了 的 ， 还 是 会 有 余 香 的 ……” 


长 2 《白夜 行 》 情 感 主题 与 例句 


主题 主要 关键 词 前 20 项 占 比 例句 
a a 。 “爱情 是 自私 的 ， 而 感情 ， 却 真 的 真 的 ， 可 以 是 
1 爱情、 绝望 、 希 望 、 失 去 、 伤 害 。 35.1% 无 限 大 的 。 大 于 原罪 和 赎 回 , 也 大 于 希望 与 生命 ……” 


2 重要、 理解 、 肯 定 、 相 信 、 获 得 19.4% 


3 ”幸福 、 失 去 、 伤 害 、 不 幸 、 伪 装 19% 


14.6% 


5  ” 人物、 犯罪 、 献 身 、K| 手 、 诡 计 12% 


5.3 基于 情感 词典 与 情感 主题 的 用 户 情 绪 提 炼 内 
容 可 视 化 

为 了 更 加 直观 地 反映 研究 结果 ， 进 一 步 的 
实验 通过 可 视 化 方法 ， 对 基于 情感 词典 与 情感 
主题 的 用 户 情绪 提炼 内 容 进 行 可 视 化 描述 。 

在 基于 情感 词典 的 评论 内 容 情感 分 析 方面 ， 
以 展现 人 类 孤独 寂寞 又 诈 歌 真善美 的 《小 王子 》 
为 例 ,， 评论 内 容 情感 分 布 示意 如 图 7 所 示 。 由 
图 7 可 见 ， 该 书 以 正 向 温暖 的 情绪 ( 乐 、 好 ) 为 
主 ， 同 时 包含 有 一 定 的 悲伤 情绪 ( 阴 ) 和 负面 情 
绪 ( 亚 )， 用 户 评论 中 的 情绪 与 书籍 内 容 呈 现 情 
感 状态 基本 一 致 。 但 具体 到 个 体 评论 ， 笔 者 随 
机 提取 两 个 案例 ， 用 人 饼 图 绘制 评论 中 的 情感 类 


”“ 中 文 版 白夜 行 的 成 功 ，50% 的 归功 于 原作 ，50% 
归功 于 翻译 ……” 

“…… 毫 无 疑问 ， 她 是 一 个 受害 者 。 但 是 在 被 禽兽 折 
磨 的 过 程 中 ， 她 也 异 变 成 了 一 个 禽兽 ,一 个 遗传 了 她 
母亲 卑贱 品格 的 女人 ……” 


了 死亡 的 发 现时 间 …… 高 富 雪 楼 找到 女性 律师 商量 离 


“…… 唐 泽 和 桐 原 都 是 彼此 在 黑暗 中 宝贵 的 第 二 道 阳 
光 ， 纵 然 桐 原 舍身 ， 唐 泽 也 只 能 妆 然 转身 离 去 …… 


型 分 布 ( 见 图 8) 。 显 然 ， 左 边 评论 人 感受 到 的 
是 伤感 ， 而 右边 评论 人 则 更 多 感受 的 是 美好 和 
善良 。 借 助 可 视 化 ， 可 清晰 地 观察 到 读者 感知 
状态 的 差异 。 

进一步 用 词 云 分 析 书 评 情 感 分 布 ， 如 图 9 
所 示 。 图 左边 是 基于 全 体 实 体 词 生成 的 词 云 ， 
右边 为 基于 情感 词 生成 词 云 。 从 词 云 中 观察 
到 《小 王子 》 带 给 人 们 的 是 “ 洱 福 ” “孤独”“ 美 
好 ”“ 快 乐 ”等 感受 ， 与 作品 主题 一 致 。 而 
对 比 左右 两 个 词 云 可 以 看 出 ， 情 感 词 云 能 更 
直观 展现 书评 中 读者 的 感受 。 显 然 ， 对 于 体 
验 型 产品 评论 ， 基 于 情感 词 的 分 析 能 够 更 好 
地 刻画 主题 。 
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图 7 《小 王子 》 每 条 评论 情绪 属性 统计 ( 分 开 ) 
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图 9 《小 王子 》 全 体 实 词 词 云 与 情感 词 词 云 比较 


在 基于 情感 主题 的 评论 内 容 情感 分 析 方面 ， 包括 “朋友 ”“ 疲 宽 ”“ 痛 苗 ” 等 重要 的 主题 词 。 


使 用 词 云 可 视 化 聚 类 主题 。 由 图 10 可 见 ，《 小 可 见 ， 情 感 主 题 分 析 能 更 好 地 揭示 出 评论 人 对 
王子 》 人 情感 主题 3 的 词 云 直观 地 将 对 应 主题 中 书籍 的 感知 ， 不 仅 是 对 图 书 的 整体 感知 ， 其 至 
最 核心 词语 “孤独 ”呈现 在 读者 面前 ， 同 时 还 是 对 书 中 情节 或 人 物 的 感知 。 
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图 10 《小 王子 》 情 感 主题 3 词 云 


@ 讨 论 

对 书评 进行 细 粒 度 情感 分 析 ， 使 我 们 能 够 
获悉 用 户 对 书 的 感知 ， 从 而 从 用 户 感知 的 视角 
描述 书籍 ,进而 实现 基于 评论 的 图 书 风格 对 比 、 
争议 书籍 的 主流 观点 追踪 、 评 论 关注 点 分 析 及 
评论 质量 分 析 等 应 用 。 
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6.1 基于 用 户 感 知 的 图 书 风格 对 比 

书 的 情感 风格 不 同 ， 带 给 读者 的 感知 情绪 
亦 不 同 ， 用 户 感 知情 绪 与 图 书 内 容 的 情感 状态 具 
有 一 致 性 。 通 过 分 析 评 论 的 情感 分 布 与 主题 ， 能 
够 提炼 书 的 风格 ,实现 基于 感知 的 书籍 检索 与 推 
荐 。 图 11 为 12 本 书 的 情感 极 性 分 布 对 比 图 ， 直 
观 地 呈现 出 不 同 书籍 在 情感 风格 上 的 差异 。 婚 ( 白 
夜行 》《 百 年 孤独 》《 活 着 》 等 书籍 的 情感 偏 负 
向 ， 而 《 岛 上 书店 》《 解 忧 杂 货 铺 》 等 书籍 的 情 
感 偏 正 向 ， 结 论 基 本 符合 图 书 主题 内 容 反映 的 情 
感 状态 。 图 12 为 12 部 书 细 粒 度 情 感 分 布 对 比 图 ， 
更 细致 地 刻画 出 书 带 给 读者 的 感受 。 以 “ 爱 ” 为 
主题 的 《小 王子 》 融 合 的 是 欢乐 与 忧伤 的 情感 ; 
《百年 孤独 》 与 《活着 》 是 国内 外 社会 变革 背景 
下 人 的 故事 ， 描 绘 人 与 家 族 之 间 的 兴衰 变更 和 苦 
难 历史 ，“ 悲 伤 ”成 为 两 部 作品 的 主要 基调 ; 而 
《平凡 的 世界 》 反 映 的 是 沉重 生活 中 的 真善美 ， 
获得 了 更 多 的 读者 正面 的 认 知 和 感受 。 
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6.2 争议 书籍 的 主流 观点 追踪 

通过 对 存在 争议 的 书籍 进行 评论 情绪 挖掘 ， 
可 以 获取 读者 的 主流 观点 的 流动 方向 与 原因 ， 
进而 对 书籍 的 评价 与 营销 行为 产生 积极 作用 。 
以 《三 体 》 为 例 ， 由 图 13 可 知 ， 读 者 对 本 书 的 
意见 呈现 两 极 化 ， 但 正 反 意见 在 不 同时 间 段 对 
立 出 现 ， 并 逐渐 趋 于 统一 。 而 差异 的 减少 或 增 
加 可 能 与 本 书 的 获奖 、 电 影 化 等 行为 息息相关 。 


图 11 十 二 本 书 情感 属性 统计 正 负 情感 倾向 对 比 


6.3 基于 情感 特征 的 评论 分 析 

情感 为 主观 性 文本 所 特有 ， 细 粒度 情感 分 
析 在 主观 性 文本 挖掘 中 有 着 重要 应 用 价值 ， 如 
不 同 星 级 评价 下 读者 感知 情绪 的 差异 及 关注 点 
分 析 。 以 《白夜 行 》 为 例 ， 如 图 14 可 知 , 在 5 
星 评价 中 ,评论 者 倾向 于 对 自己 的 感知 进行 更 
加 细致 的 描述 ， 而 在 1 星 评论 中 ,评论 者 倾向 
于 宣泄 自己 的 不 满 。 从 这 点 来 看 ， 对 体验 型 产 
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品 ， 商 家 可 以 从 好 评 中 获得 更 多 用 户 在 使 用 过 观 性 评论 资讯 的 本 质 特质 , 一 但 把 握 这 一 特质 ， 
程 的 不 同体 验 ， 因 而 好 评 的 利用 价值 更 高 。 由 就 能 够 对 其 进行 有 效 的 控制 与 管理 ， 从 而 更 好 
此 ， 我 们 认为 ， 情 感 特质 是 富 含 用 户 观点 的 主 地 发 挥 主观 评论 类 资讯 的 信息 价值 。 
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@ 结 论 和 后 续 研 究 计 划 


本 研究 以 豆 为 网 站 书评 为 分 析 对 象 ， 借 助 
中 文 领 域 的 情绪 词典 与 LDA 隐 主 题 建 模 方法 实 
现 细 粒 度 情感 要 素 提 炼 ， 并 采用 可 视 化 技术 对 
评论 内 容 中 反映 的 情绪 要 素 进行 分 析 。 

研究 发 现 : 中 主题 分 析 法 和 词典 法 均 能 有 
效 提炼 评论 内 容 中 的 用 户 情 感 要 素 并 各 有 所 长 ， 
前 者 可 以 提供 更 细腻 的 情感 描述 、 用 户 感 知 ， 
后 者 能 够 直观 地 呈现 评论 内 容 中 蕴含 的 情感 分 
布 。@) 从 全 体 用 户 评论 中 提炼 的 情感 状态 与 书 
的 主题 情感 具有 一 致 性 ， 可 基于 评论 中 的 情感 
状态 明确 书 的 情感 风格 定位 。 同 时 ， 读 者 感知 
情感 存在 差异 ， 需 进一步 获悉 读者 在 阅读 中 的 
情感 诉求 。 结 合 两 者 ， 商 业 领 域 对 体验 型 商品 
可 以 实现 基于 情感 的 广告 推荐 与 情感 营销 等 。 
(3 基于 情感 特征 的 词 云 、 条 形 图 、 人 饼 图 等 多 种 
可 视 化 方法 是 呈现 用 户 感知 的 更 好 方式 。 由 基 
于 用 户 情绪 感知 描述 书籍 ， 是 探究 实现 基于 情 
绪 的 书籍 分 析 、 检 索 、 推 荐 的 有 效 方法 。 

今后 ， 笔 者 将 进一步 完善 实验 ， 尝 试 识别 
情感 本 体现 有 7 种 情感 以 及 情感 主题 的 对 立 关 
系 ， 进 而 在 词 丐 配 的 基础 上 尝试 引入 程度 副词 
与 否定 词 等 语法 特点 ， 更 加 精确 真实 地 揭示 评 
论 所 反映 的 情绪 特点 ， 并 尝试 引入 更 多 的 可 视 
化 方法 。 同 时 ， 将 探索 细 粒 度 情感 挖掘 的 一 些 
实际 应 用 ， 如 基于 用 户 感 知情 绪 的 图 书 风 格 等 
多 种 对 比 、 争 议 书籍 的 主流 观点 追踪 等 ， 并 对 
更 深入 的 应 用 提出 建议 。 另 一 方面 ， 笔 者 还 会 
将 细 粒 度 情感 分 析 引 入 搜索 类 商品 评论 分 析 ， 
从 商业 运营 角度 ， 对 情感 营销 的 有 关 问 题 进行 
探索 分 析 。 
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Emotion Mining and Analysis of Comments Based on 上 上 motional Model 
一 一 人 Case Study on Book Reviews of Douban 


Nie Hui Liu Mengyuan 


School of Information Management Sun Yat-sen University, Guangzhou 510006 


Abstract: [Purpose/significance] This study aims to explore the methods on extracting and visualizing users’ 


emotions from unstructured user-generated content, analyze user-generated content from a perceptual level, 


and discuss the related application prospects. [Method/process] The research took book reviews of Douban 


as analysis object. Emotional dictionary in Chinese domain and LDA latent topic model were used to refine 


the fine-grained emotional elements. And further, visualization techniques helped to analyze the emotional 


elements reflected in the review content. [Result/conclusion] The study found that both latent topic model 


and emotion dictionary can effectively extract the user emotion elements in the content of the review, even 


though some difference still exists, such as the emotional topic model can provide more exquisite results. By 


fine-tuning the application scenario, the methods used in this study can be applied to various forms of per- 


ceived utility mining tasks about reviews, like experience-based products recommendation. 


Keywords: user-generated content 


emotion perception 


review mining information visualization 


